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摘 X [目的 /意义 ] 在 学 术 社 交 媒体 快速 发 展 的 今天 ,开展 跨 学 科研 究 或 者 寻求 跨 学 科 合 作 时 ,很 多 科研 合作 起 始 于 社 
交 媒 体 上 的 相识 或 关注 ,因此 开展 社交 媒体 上 跨 学 科 用 户 推荐 非常 有 意义 。 社 交 媒 体 上 主要 存在 “媒体 ”( 代 表 内 
容 ) “社交 ”( 代 表 关 系 ) 两 大 类 数据 ,因此 本 文 开展 了 融合 内 容 与 关系 的 社交 媒体 跨 学 科 用 户 推荐 。[ 方法 “过 


荐 结果 在 一 定 程度 上 能 满足 推荐 需求 。 
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跨 学 科 距 离 “学术 社 交 媒 体 


程 ] 在 基于 向 量 空间 模型 的 用 户 表示 之 后 ,本 文 借助 用 户 内 容 信 息 计 算 用 户 领域 专业 度 , 根 据 关系 数据 测度 用 户 
跨 学 科 距 离 , 同 时 结合 用 户 关系 网 络 PageRank 值 给 出 推荐 结果 。[ 结果 /结论 ] 以 科学 网 为 例 ,实现 “图 书 情报 ” 
“计算 机 ”“ 新 闻 与 传媒 ”“ 高 等 教育 “生物 学 "这 5 个 领域 内 的 跨 学 科 用 户 推 荐 ,并 经 人 工 实验 测试 检验 ,表明 推 
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在 日 常生 活 中 ,人 们 如 果 遇 到 一 些 问题 , 常 希望 得 
到 网 上 相关 领域 用 户 的 解答 。 在 现实 中 ,同样 有 很 多 
ARPELA RER" ,如 项 目 评审 中 需要 领域 用 户 
CREEZ) 对 项 目 评阅 、 审 核 时 ,需要 系统 根据 项 目 相 
KENEN. BEŽ Internet 技术 与 Web2. 0 技术 的 
发 展 ,网 络 在 科研 中 的 重要 性 也 越 来 越 强 ,FBarjak 
发 现 学 者 们 在 使 用 社交 媒体 和 网 络 站 点 文献 时 ,经 党 
引用 他 们 与 对 方 沟通 的 观点 ;G，Kirkup 通过 访谈 发 
现 博客 成 为 了 一 种 新 的 学 术 生 产 方式 ,同时 较 便 捷 地 
实现 了 博 主 与 评论 者 的 对 话 及 思想 碰撞 ""。 在 此 背景 
下 ,面向 科研 人 员 的 学 术 社 交 媒体 应 运 而 生 "”"。 所 请 
学 术 社交 媒体 ,又 称 为 “学 术 社 交 网络 ”( Academic So- 


的 ScholarMate( 科研 之 友 ) 、 科 学 网 博客 学术 圈 等 也 
很 受 学 者 欢迎 。 

随 着 学 术 社交 媒体 的 进一步 发 展 ,很 多 不 同 领域 
的 学 者 团队、 机 构 等 纷纷 加 入 并 借助 学 术 社 交 媒 体 平 
台 来 分 享 自 己 的 成 果 ,实现 与 同行 交流 ,这 为 跨 学 科研 
究 与 合作 提供 了 有 益 帮 助 ” ,但 也 为 学 术 社交 媒体 上 
寻找 到 合适 的 跨 学 科 用 户 ( 或 专家 ) 增 加 了 难度 。 
此 ,在 学 术 社 交 媒 体 上 开展 跨 学 科 用 户 推 荐 非常 重要 ， 
也 非常 有 意义 ,这 便 是 本 文 研究 动机 一 一 学 术 社 交 媒 
体 上 跨 学 科 用 户 推荐 。 该 推荐 可 满足 用 户 在 一 些 场景 
下 对 跨 领 域 用 户 的 寻找 ,帮助 他 们 准确 地 找到 相关 的 
专家 (通常 ,如 果 一 个 用 户 对 某 一 事物 精通 或 者 说 有 独 
到 的 见解 ,我 们 称 他 (她 ) 是 这 一 领域 的 专家 ) 。 

与 一 般 信 息 检 索 系 统 不 同 ,推荐 系统 并 不 直接 提 


cial Networking ,后 简称 ASN ) ,是 指 能 够 帮助 研究 者 与 


供 问题 答案 ,只 是 提供 解决 问题 的 途径 ,因此 该 推荐 模 


其 他 学 者 建立 社会 网 络 和 促进 科研 活动 的 一 种 在 线 服 
务 .工具 或 者 是 平台 !% 。 目 前 国外 使 用 较 多 的 学 术 社 
交 媒 体 有 ResearchGate , Academia. edu , Mendeley , 国内 


型 与 现 有 专家 推荐 系统 有 很 多 相似 之 处 ,本 文 致力 于 
构建 这 样 一 个 跨 学 科 用 户 的 推荐 模型 :融合 “社交 ” 数 
据 ( 代 表 关 系 ) 与 “媒体 ”数据 (代表 内 容 ) ,以 实现 学 术 
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社交 媒体 上 的 跨 学 科 用 户 推荐 。 
2 学 术 社 交 媒 体 及 其 跨 学 科研 究 现 状 


荐 有 优势 ,对 路 学 科研 究 也 有 其 促进 作用 ,但 是 尚且 缺 
乏 社交 媒体 上 器 学 科 用 户 推荐 方面 的 研究 ,而 蜂 学 科 


用 户 推荐 对 促进 跨 学 科 项 目 合作 乃至 科研 创新 都 起 着 


作为 社交 媒体 中 面向 学 术科 研 的 一 类 ,学 术 社 交 
媒体 的 内 容 主 要 来 自 于 科研 用 户 , 因 此 学 术 社 交 媒 体 
上 的 研究 更 多 地 集中 在 以 下 3 个 方面 :中 用 户 使 用 行 
为 与 学 科 差异 性 方面 ,如 H. Meishar-Tal 等 根据 使 用 与 
满足 理论 分 析 了 以 色 列 3 个 学 术 机 构 298 名 用 户 的 问 


至 关 重 要 的 作用 。 

从 某 种 程度 上 来 说 , 跨 学 科 用 户 推荐 与 传统 推荐 
系统 有 很 多 相似 之 处 。 目 前 关于 用 户 推荐 系统 研究 最 
多 的 是 专家 推荐 ,专家 推荐 的 一 个 比较 明确 的 定义 是 
Hi T. Reichling 等 ”提出 :专家 推荐 是 为 了 满足 用 户 


卷 ,发 现 用 户 使 用 ASN 的 主要 目的 是 消费 信息 ,分 享 
信息 .与 他 人 互动 相对 较 弱 ;J. L. Ortega 通过 分 析 6 
132 名 拥有 学 术 社 交 媒 体 账号 的 西班牙 国家 研究 理事 
会 成 员 的 Profiles , 发 现 Academia. edu 上 有 大 量 的 人 文 
科学 家 和 社会 科学 家 ,而 ResearchGate 比较 受 生 物 学 
察 欢迎 ” ,在 每 个 ASN 上 都 可 以 观察 到 学 科 差 异 ;A. 
—Elsayed 分 析 收 集 到 的 315 名 阿拉 伯 科 研 人 员 问 
tes) JH ResearchGate 账号 人 员 较 多 且 多 数 来 自 
所 然 科 学 和 应 用 科学 领域 '”。 加 学术 影响 方面 ,如 
Priem 等 认为 社交 网 络 在 科学 计量 学 2.0 中 显示 出 潜 
办 zocial Webmetrics 丰富 了 传统 文献 引用 的 评价 指 
酉 其 至 其 上 的 资源 聚合 服务 可 以 防止 “ 睡 美人 " 现 
4E. ;W，Gunn 认为 Mendeley 已 成 为 评价 学 术 期 刊 影 
啊 四 子 的 替代 计量 指标 之 一 "2 。 图 学 术 资 源 推 荐 方 
HUN L. Jing 等 基于 合 著 顺序 .最 新 合作 时 间 和 合作 
次 比 提 出 了 基于 随机 游 走 模型 的 ACRec 模型 ,该 模型 
PIKMAR; V. A. Rohani 等 提出 了 一 种 
Vet alii] ECSN 算法 向 用 户 推荐 学 术 项 目 "”。 

-三 但 随 着 学 术 社 交 媒体 的 发 展 ,学 者 们 逐渐 关注 到 
AS 在 跨 学 科研 究 中 的 作用 ,如 S. J. Oh 等 5 通过 对 
Mendeley 上 21 679 个 Group 及 其 上 的 67 562 条 关系 的 
分 析 ,发 现 43 124 条 关系 ( 占 63.8% ) 发 生 在 用 户 所 在 
学 科 领 域内 ,余下 的 36. 296 表明 用 户 可 能 突破 了 学 科 
限制 ,加 入 了 其 他 学 科 群 组 。 此 外 ,Mendeley 上 Group 
表现 出 明显 的 学 科 多 样 性 ,为 来 自 不 同 背景 的 研究 人 
员 提供 一 个 平台 ,让 他 们 在 共同 感 兴趣 的 问题 上 找到 
彼此 并 进行 合作 ,有 助 于 促进 多 学 科 合 作 ;J Jiang 
等 "9 通过 构建 Mendeley 上 群 - PERAR A PK ME 
- 群 跟随 耦合 网 络 ,研究 了 Mendeley 上 群 与 学 科 之 间 
的 交互 ,并 指出 学 术 社交 媒体 上 群 有 望 为 跨 学 科研 究 
提供 丰富 的 语 料 ;X，Wu 等 "基于 科学 网 的 学 科 分 类 
体系 和 科研 用 户 所 填 研 究 方 向 好友 关系 等 数据 ,并 借 
用 生物 学 领域 的 亲缘 物种 物种 均匀 度 指 标 发 现 了 高 影 
响 力 跨 学 科 用 户 。 

通过 上 面 描述 ,可 以 看 出 学 术 社交 媒体 对 资源 推 


在 特定 场景 下 对 专家 的 需要 ,帮助 他 们 及 时 准确 找到 
相关 领域 专家 来 解决 问题 的 推荐 系统 。 现 有 专家 推荐 
系统 主要 有 基于 专家 知识 信息 的 推荐 、 基 于 专家 社会 
网 络 分 析 的 推荐 以 及 综合 两 者 的 方法 。 其 中 ,基于 专 
家 知识 信息 的 推荐 是 在 构建 专家 信息 后 ,计算 专家 知 
识 和 用 户 需求 之 间 的 匹配 度 来 实现 ,如 李 明 等 引入 信 
息 炉 求解 需求 模型 和 专家 知识 模型 的 匹配 度 来 产生 推 
;基于 专家 社会 网 络 分 析 的 推荐 通过 建立 专家 社 
网 络 关系 提取 出 专家 关联 度 ( 关联 度 体现 在 专家 之 
间 的 学 术 问 题 或 群体 交流 等 潜在 交流 中 ) ,然后 利用 网 
络 关系 挖掘 出 专家 ,如 本 M. Kleinberg”! 提出 了 基于 
图 的 专家 知识 推荐 方法 。 综 合 两 者 的 方法 有 许 云 
£L 集结 社会 网 络 分 析 和 语义 分 析 的 专家 知识 推荐 ， 
H. Kautz 等 .的 Referral Web。 单 纯 地 基于 专家 信息 
进行 推荐 会 存在 冷 启动 问题 ,单纯 地 基于 关系 角度 挖 
掘 会 缺乏 语义 理解 ,因此 本 文 我 们 提出 融合 内 容 ( 即 
“媒体 ”数据 ) 与 关系 ( 即 “ 社 交 ” 数 据 ) 的 跨 学 科 用 户 
推荐 ,以 帮助 用 户 更 方便 地 寻找 到 他 们 感 兴 趣 的 具有 
一 定 影响 力 的 跨 学 科 用 户 。 


3 ”研究 思路 与 关键 技术 指标 


清华 大 学 彭 兰 教授 ”认为 社交 媒体 有 两 个 主要 
特征 :一 是 内 容 生 成 与 社交 相 结 合 ;二 是 平台 上 主角 是 
用 户 , 而 不 是 网 站 运营 者 。 因 此 本 文 提 出 将 内 容 与 社 
交融 合 一 起 进行 跨 学 科 用 户 推 荐 的 方法 ,其 研究 思路 
见 图 1 。 

通过 图 1 ,可 以 看 出 ,该 推荐 模型 主要 包括 下 面 3 
个 部 分 : 

(1) 用 户 知 识 表示 模型 。 文 本 挖掘 中 文档 较 多 地 
采用 向 量 空间 模型 (Vector Space Model ,VSM ) 来 表示 ， 
这 样 文档 就 会 以 向 量 形 式 定 义 到 实数 域 中 ,使 得 自然 
语言 具有 可 计算 性 。 在 本 文中 ,推荐 需求 和 路 学 科 用 
户 都 看 成 文档 ,其 VSM 构造 过 程 见 3.1 节 。 

(2) 推荐 相似 度 计算 。 本 文 从 领域 方向 和 领域 知 
识 两 个 角度 进行 相似 度 计算 。 如 果 相 似 度 值 高 ， 说 明 


x» odd 


96 


* 


ChinaXiv 合 作 期 刊 


L1 


成 志 . 融合 内 容 与 关系 的 学 术 社交 媒体 上 跨 学 科 用 户 推荐 模型 研究 [可 . 图 书 情报 工作 ,2020 ,64(9) :95 - 103. 


户 内 容 信息 
户 所 填 学 科 方向 、 领 域 博 文 ) ) 


借用 跨 学 科 测 度 指标 
度量 用 户 领域 专业 度 


( 欧 几 里 得 距离 ) 


图 1 


推荐 需求 与 用 户 信息 匹配 程度 高 ,反之 匹配 程度 低 , 详 
细 鞠 术 见 3.2 节 。 

(3 ) 推 荐 指数 计算 及 结果 输出 。 得 到 领域 相似 度 
倩 六 ,对 相似 度 超过 指定 阔 值 的 用 户 ,结合 用 户 领域 专 
IE SEHER .学 者 PageRank 值 给 出 推荐 顺序 ,其 
详细 技术 见 3.3 节 。 


需求 信息 之 间 的 距离 ,我 们 


向 晖 空间 模型 由 G. Salton 等 于 1974 年 提出 局 ,后 来 
被 后 用 到 Web Watcher, Fab 等 很 多 个 性 化 推荐 系统 
中 Ef 且 使 用 效果 较 好 。 

-三 本 文 对 用 户 博文 分 词 ,去除 停 用 词 后 构成 用 户 文 
档 回 量 。 仿 领域 知识 中 包含 的 关键 词 集合 为 了 , 且 T= 


IT, DE ,总 数 为 no 用 户 集 合 标记 为 £, H. E= 
| E, ,上 En] , 则 用 户 向 量 表示 为 :五 =< (T, „Wp ) , 


(T, wp), CT, wi) > ,其 中 ,wi 表示 关键 词 T, 的 权 
重 ,权重 w 采 用 TF * IDF 来 计算 ,计算 公式 为 : 


m+1 : 
LA XO) 


式 中 fT, E.) ARGIS] T; 在 用 户 E, 博文 中 出 现 
的 频率 ,m 为 总 用 户 数 ,m; 为 有 关键 词 T 出 现 的 用 户 
数 。 
3.2 推荐 相似 度 计 算 

为 了 克服 相似 度 计算 的 片面 性 ,本 文采 用 需求 与 
领域 方向 、 领 域 知 识 的 双 层 相似 度 计 算 , 双 层 相似 度 计 
算 公式 定义 如 下 : 

Sim(U,,E;) = oSim(D, ,D,) * BSin(K, ,K,) 

XQ) 


w(T,E;) = TB) log C77) 


EE E 


学 术 社 交 媒 体 采 用 


推荐 相似 度 计算 | > 


户 社交 信息 
《好友 关系 及 好 友 学 科 方向 ) 


的 学 科 分 类 体系 


兽 用 生物 科学 亲缘 物种 均 
匀 度 衡量 用 户 跨 学 科 距 离 


推荐 指数 计算 与 结果 输出 


融合 内 容 与 关系 的 跨 学 科 用 户 推荐 模型 


其 中 ,w+B=1, 且 as<B<1, 式 中 体现 领域 方向 
( Direction) 在 推荐 中 的 重要 程度 ,8 体现 领域 知识 
( Knowledge) 在 推荐 中 的 重要 程度 。Sim( D, ,D; ) 为 用 
户 需求 U; 和 领域 用 户 E, 之 间 的 领域 方向 (Direction) 
相似 度 ;Sim(K, ,Kx ) 为 用 户 需求 U 和 领域 用 户 之 
间 的 领域 知识 (Knowledge) 相似 度 。 

在 计算 用 户 之 间 相 似 度 时 , 欧 氏 距离 (Euclidean 
Distance) 是 比较 直观 、 常 见 的 一 种 相似 度 算法 。 欧 氏 
距离 越 小 ,两 个 用 户 相似 度 就 越 大 , 欧 氏 距离 越 大 ,两 
个 用 户 相似 度 就 越 小 。 在 日 常 使 用 中 ,一 般 习 惯 于 将 
相似 度 与 1 进行 比较 ,相似 度 在 数值 上 反映 为 0 < = 
Similarity(X,Y) < =1, 越 接近 1, 相似 度 越 高 ;那么 我 
们 在 使 用 欧 氏 距离 时 ,可 以 通过 1/( Distance (X,Y)) 
来 实现 上 一 理念 。 假 定 用 户 需求 i 与 跨 学 科 用 户 j 的 
文本 特征 表示 为 5 = (WaWa, ,wi ) 和 = Qus, 
…,w,,, 二 者 之 间 基 于 欧 氏 距离 的 相似 度 计算 公式 为 : 
1 1 


Dis tance( v; ,0, ) fuz 2 
2. ( W Wi ) 


式 (3 ) 


一 > 一 
Sim(v; vj) = 


t 


3.3 推荐 指数 计算 及 跨 学 科 用 户 推荐 

上 述 相似 度 计算 可 有 效 地 检索 出 领域 方向 与 领域 
知识 上 满足 需求 的 领域 用 户 , 但 可 能 会 出 现 推荐 精度 
不 高 的 现象 , 即 一 些 跨 学 科 能 力 较 强 的 用 户 的 推荐 位 
置 可 能 被 靠 后 。 在 项 目 评审 中 ,文献 [25 -26] 从 科学 
计量 角度 将 专家 科研 能 力 纳入 专家 送 选 标准 ,重点 考 
察 专家 研究 方向 、 学 术 水 平 .科研 经 验 、 知 名 度 等 信息 
因此 ,本 文 也 从 科学 计量 角度 去 计算 跨 学 科 用 户 推 荐 
指数 ( Recommendation Index, RI), ÆR xF, RIE 
要 从 学 者 领域 专业 度 、 里 学 科 距 离 和 学 者 网 络 中 心性 


o 
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角度 来 考虑 ,认为 推荐 指数 是 领域 专业 度 (S) 、 跨 学 科 
距离 (IDD) .学 者 网 络 PageRank (Ei ( PR) 的 加 权 线性 组 
合 , 即 : 

RI =al .9+a2 IDD * o3 - PR 式 (4) 

式 (4) 中 ,学 者 领域 专业 度 值 反映 了 用 户 在 某 一 
学 科 的 影响 力 , 跨 学 科 距 离 主要 反映 学 者 跨 学 科 程 度 ， 
学 者 网 络 PageRank 值 反 映 用 户 关系 网 中 权威 度 , 各 个 

间 标 说 明 依 次 如 下 : 

(1) 领域 专业 度 。 作 者 专业 度 ( specialization ) ^" 
JEA. L. Porter 等 学 者 提出 的 ,描述 了 在 指定 时 间 内 一 
个 研究 者 发 表 的 论文 分 布 的 学 科 情 况 。 该 指标 在 杨 良 
斌 等 ”的 跨 学 科 测 度 方法 中 也 被 使 用 ,其 计算 公式 如 


TORY im 

3X5) 中 ,mi 表示 属于 学 科 类 别 i 的 文章 数 ,S, 越 
说 明 作 者 跨 学 科研 究 程 度 越 高 ,专业 度 越 低 ;5, 越 
党 明 研 究 越 集中 ,其 专业 度 越 高 。 
< 但 和 晋 飞 等 '” URSUS, 得 出 的 值 大 部 分 都 在 0.5 
世 , 而 实际 情况 是 作者 的 研究 工作 专业 度 并 不 太 低 ， 
,我 们 采用 和 晋 飞 等 提出 的 S 公式 : 

ntl 

2 -Q 

Me 式 (6) 


n-l 


S 


HiB,Qz1xf, 42xf, o onxf, f, 表示 每 个 学 
ASNES iae oO EB, FL f f.m mf 
全 (2 ) 跨 学 科 距 离 。 实 际 上 ,不 管 是 用 Sp 还 是 用 S 
公 臣 来 计算 用 户 专业 度 ,其 值 大 只 能 说 明 用 户 在 该 学 
科 鸡 博文 所 占 比例 较 多 ,并 不 能 代表 用 户 的 跨 学 科 属 


性 ,因此 我 们 进一步 借用 了 跨 学 科 距 离 来 衡量 用 户 的 
跨 学 科 程 度 。 

跨 学 科 距 离 (interdisciplinary distance ,IDD ) 可 以 用 
来 衡量 用 户 的 跨 学 科 程度 ,其 思想 来 源 于 文献 ”。 在 
文献 ”中 ,作者 指出 IDD 思想 来 源 于 文献 ”中 的 生物 
科学 亲缘 物种 均匀 度 一 一 Phylogenetic Species Even- 
ness ,其 计算 公式 如 下 : 
E CE zu io 

式 (7) 中 ,C 为 物种 亲缘 关系 树 的 关系 矩阵 ,qiag 
(C) 为 C 对 角 和 矩阵 ,WW 为 物种 个 数 分 布 的 列 向 量 ,m 
为 物种 关系 树 所 有 物种 个 数 ,m 为 物种 关系 树 每 个 分 
文 上 平均 物种 个 数 。 

通过 式 (7) ,可 以 看 出 ,IDD 指标 的 计算 是 在 物种 
亲缘 关系 树 上 来 实现 的 ,为 此 ,本 文 我 们 创新 性 地 利用 
用 户 好 友 的 领域 学 科 分 布 构造 用 户 学 科 亲 缘 树 。 所 谓 
学 科 亲 缘 关 系 树 是 仿照 生物 学 领域 提出 的 一 个 概念 。 
在 生物 学 领域 ,生物 分 类 学 家 根据 各 类 生物 间 亲 缘 关 
系 的 远近 ,把 各 类 生物 安置 在 有 分 枝 树 状 的 图 表 上 , 简 
明 地 表示 生物 的 进化 历程 和 亲缘 关系 , 称 为 “进化 
树 ”, 不 同 分 支 上 的 生物 差异 较 同 一 分 文 上 的 差异 大 。 
实际 上 ,在 科学 发 展 过 程 中 ,科学 门类 也 同样 发 生 了 这 
样 的 演化 并 分 支 过 程 ,有 些 学 科 之 间 自 被 创建 以 来 就 
表现 出 明显 的 “亲缘 ”关系 。 为 了 突出 学 科 间 “亲缘 ” 
与 ^ 远 足 ”关系 , 本 文 同样 借用 了 “学 科 亲 缘 关 系 树 ” 这 
一 概念 来 表达 用 户 与 学 科 间 的 相似 程度 。 在 本 文 实验 
中 ,科学 网 博客 上 博 主 的 学 科 杂 缘 关 系 树 构造 过 程 示 
例如 图 2 所 示 : 


PSE 


DE 


i 图 书馆 、 情 报 与 文献 学 212 


管理 科学 与 工程 150 


自动 化 98 


宏观 管理 与 政策 77 | 
(a) 某 用 户 的 好 友 学 科 分 布 示例 i 


116 
地 理科 学 分 支 


98 
数理 科学 分 支 
(b) 该 用 户 的 学 科 亲 缘 关 系 树 


2 用 户 学 科 亲 缘 关 系 树 构造 过 程 示 例 


为 了 构造 跨 学 科 关系 亲缘 树 ,我 们 男 外 需要 获得 
平台 的 学 科 分 类 体系 ,因此 本 文 仆 取 了 科学 网 博客 上 
的 学 科 分 类 体系 :包含 105 个 二 级 学 科 类 别 ( 后 文 统称 


为 “二 级 学 科 类 别 ”) 的 8 个 学 科大 类 (后 文 统称 为 “一 
级 学 科 类 别 ”) ,具体 类 别 数 见 表 1。 
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R1 科学 网 博客 上 学 科 分 类 类 目 


一 级 学 科 ”包含 的 二 级 学 科 
类 别名 称 ”类 别 数目 (个 ) 


二 级 学 科 类 别 示例 ( 仅 给 出 3 个 ) 


生命 科学 20 微生物 学 ,植物 学 .生态 学 

医学 科学 31 呼吸 系统 、 循 环 系统 消化 系统 

化 学 科学 7 无 机 化 学 有 机 化 学 、 物 理化 学 

工程 材料 9 金属 材料 、 无 机 非 金属 材料 、 有 机 高 分 子 材料 
信息 科学 5 电子 学 与 信息 系统 ,计算机 科学 、 自 动 化 
地 球 科学 6 地 理学 地质 学 地球 化 学 

数理 科学 5 数学 力学 ,物理 学 Y 

管理 综合 22 管理 科学 与 工程 ,宏观 管理 与 政策 、 


图 书馆 ,情报 与 文献 学 


在 本 文中 ,假如 统计 某 用 户 好 友 的 二 级 学 科 类 别 
后 得 到 的 情况 如 图 2(a) ( 按 二 级 学 科 类 别 数目 降序 排 
列 ,数值 代表 属于 该 类 别 内 的 好 友 数 ) 。 根 据 图 2(a) 
的 学 科 分 布 ,我 们 便 可 以 构造 得 到 如 图 2(b) 所 示 的 学 
科 齐 缘 关 系 树 。 其 构造 过 程 如 下 :对 照 表 1, 可 以 看 
HER] 2 (a) 中 相同 下 划 线 标 出 的 二 级 学 科 同属 于 同一 
现 学 科 类 目 ,因此 该 用 户 的 好 友 其 实 是 主要 来 自 于 
4 不 -级 学 科 门 类 ,因此 最 终 可 以 得 到 图 2(b) 具 有 4 
他 支 。 回 根据 图 2(a) 中 各 个 二 级 学 科 类 别 下 好 友 
ER E E 2(b) 中 对 应 4 个 分 支 下 tips( 指 学 
FESSA RORIS Bc) 的 数目 ,如 示例 中 该 用 户 有 212 
人 六 属于 “图 书馆 情报 与 文献 学 分支, 那么 该 tips 
下 煞 目 便 是 212;3) 。 我 们 认为 tips 节点 到 根 节 点 ( 指 
学 笠 亲 缘 关 系 树 的 根 端 ) 的 长 度 为 1, 属 于 同一 分 支 的 
学 丢 为 同 域 学 科 ,不 同 分 支 的 学 科 为 异域 学 科 , 显 然 同 
域 学 科 的 学 科 共性 要 强 ,因此 本 文 我 们 设置 属于 同一 
FECE MERI tips 共有 的 长 度 为 0.75, 各 个 tips 到 
二 级 学 科 类 别 的 长 度 为 0.25, 从 而 最 后 得 到 了 图 2 
(b). 

通常 , 跨 学 科 距 离 越 大 的 用 户 ,其 好 友 学 科 分 布 越 
分 散 . 跨 学 科 距 离 越 小 的 用 户 , 其 好 友 学 科 分 布 越 集 
中 ,因此 ,图 2 示例 中 用 户 的 好 友 关 系 亲缘 关系 树 构造 
好 后 , 便 可 以 得 到 IDD 指标 的 各 个 值 ,如 C= [es ioco 
(其 中 ce; 为 物种 i 与 到 根 节点 的 共享 长 度 ) ,M' = 
[116 ,95 ,212 ,105 ,150 ,98 ,175 ,94 ,98 ,77 ] ,m = 122 0, 
m, = 122 , 则 该 用 户 的 IDD = 0.846 7, 

(3 ) 学 者 关系 网 络 PageRank ffi; PageRank 算 
法 ”是 由 拉 里 ， 佩 奇 和 谢 尔 盖 ， 布 林 等 于 1998 年 提 
出 的 网 页 排序 算法 ,其 思想 为 :一 个 网 页 重要 ,要 么 是 
有 链接 指向 的 网 页 多 ,要 么 是 有 链接 指向 它 的 网 络 重 
要 。 因 此 用 户 关系 网 中 用 户 PageRank 值 可 以 反映 用 
户 权威 度 。 为 此 ,我 们 构建 跨 学 科 用 户 ( 供 371 位 ) 及 


其 好 友 关 系 网 ,并 计算 了 每 个 用 户 的 PageRank 值 ,得 
到 的 本 文 实例 数据 如 表 2(Top50 ) 所 示 : 
R2 跨 学 科 用 户 的 PageRank 样 例 (Tops0 ) 


户 名 PageRank 值 ”用 户 名 


PageRank 值 EE 


PageRank fH 


胡 春 松 0.013 3 王 德 华 0.007 1 章 成 志 0.005 3 
罗 春 元 0.012 5 刘洋 0.0069 李 银 生 0.005 2 
WEE 0.012 4 Ez 0.006 8 曾 新 林 0.005 2 
孙 学 军 0.0122 许 培 扬 0.006 8 张 成 岗 0.005 2 
刘 钢 0.012 唐 常 杰 0.006 7 Eug 0.005 1 
赵 凤 光 0.0101 李 维 0. 006 3 黄 富强 0.005 1 
武夷 山 0.0097 张 欣 0.006 1 张 宇 0.005 1 
房 松 0.009 3 高 建国 0.006 1 周 可 真 0. 005 
吴 锦 宇 0.009 2 张 志 东 0. 006 周涛 0. 005 
周公 朴 0.008 4 徐 明 昆 0.005 9 ug 0. 005 
E 0.007 8 曹 聪 0.005 7 [ESTA 0. 005 
黄 成 0.007 6 曾 泳 春 0.005 6 李 侠 0. 005 
王 春 艳 0.007 6 BRE 0.005 6 Rb sr d 0.004 9 
jp oe tu 0.007 6 喻 海良 0.005 6 何 宏 0.0049 
陈 安 0.007 5 曹 广 福 0.005 4 刘 桂 锋 0.004 8 
ES 0. 007 4 李 本 先 0.005 4 刘 进 平 0.004 8 
汪 育 才 0.007 2 Sylt 0.005 3 


4 跨 学 科 用 户 推荐 模型 实验 与 结果 分 析 


4.1 跨 学 科 用 户 推荐 模型 实验 设计 

根据 艺 均 平等 ”的 研究 ,图 书 情报 学 者 跨 学 科研 
究 的 前 20 个 学 科 领 域 依次 是 “计算 机 软件 及 计算 机 应 
昌 ”“ 新 闻 与 传媒 ”“ 高 等 教育 "等 ,对 照 着 科学 网 博客 
上 的 学 科 分 类 ,我 们 最 终 选 择 了 “图 书 情报 学 “计算 
机 应 用 “新 闻 与 传媒 ”“ 高 等 教育 “生物 学 ”这 5 个 学 
科 领 域 的 跨 学 科 用 户 作为 本 文 实验 对 象 , 即 前 期 基于 
主题 得 到 的 284 位 跨 学 科 用 户 - 和 基于 关系 角度 得 
到 的 128 位 跨 学 科 用 户 “ ,累计 371 位 跨 学 科 用 户 
《有 重复 用 户 ,因此 最 终 用 户 数 小 于 二 者 总 和 ) 。 同 时 
加 入 进 模型 的 还 有 这 些 用 户 的 累计 43 598 篇 领域 博 
文 ,领域 博文 数目 如 表 3 Bron : 

表 3 跨 学 科 用 户 的 领域 博文 数 


Tm 


领域 名 称 领域 博文 数 (篇 ) 
图 书 情报 9 143 
计算 机 5 044 
新 闻 与 传媒 13 169 
高 等 教育 8 738 
生物 学 7 504 


随后 ,我 们 根据 博文 所 属 博 主 ID 对 43 598 篇 博文 
进行 了 合并 ,生成 371 个 跨 学 科 用 户 文档 ,并 计算 了 用 
户 领 域 专 业 度 S。 在 用 户 文档 形成 后 ,我 们 统计 了 博 
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文中 词 的 出 现 情况 ,得 到 577 044 个 词 ,经 去 重 处 理 之 
后 得 到 26 727 个 特征 词 , 随 后 我 们 采用 TF-IDF 对 这 些 
特征 权重 进行 了 计算 ,最 终 得 到 371 个 跨 学 科 用 户 文 
档 向 量 , 加 入 进 数据 库 。 

与 此 同时 ,我 们 提取 了 这 些 用 户 的 好 友 关 系 网 
(371 个 节点 与 7 919 条 边 ) ,计算 了 PageRank 值 ,也 根 
据 用 户 好 友 学 科 分 布 计算 了 用 户 的 跨 学 科 距 离 IDD, 

基于 上 述 数 据 之 后 ,我 们 借助 Visual studio Code + 
Nodejs 架构 设计 了 一 个 推荐 模型 ,推荐 过 程 如 下 :用 户 


在 推荐 模型 中 选择 领域 方向 或 领域 知识 之 后 ,返回 排 
名 Top15 的 跨 学 科 用 户 列 表 , 并 同时 给 出 推荐 用 户 的 
其 他 信息 (如 工作 单位 与 职称 ) 浏览 链接 。 在 该 模型 
中 , 跨 学 科 用 户 排序 的 思路 是 :领域 方向 (direction ) 与 
领域 知识 (knowledge) 相似 度 加 权 组 合 ,其 中 各 个 权 值 
设置 如 下 (领域 专业 度 值 , 跨 学 科 距 离 , Pagerank 值 都 
归 一 化 之 后 进行 权重 设置 ) : a =B=0.5,a 20, 2a, 
推荐 模型 界面 如 图 3 所 示 : 


O 图 3 跨 学 科 用 户 推荐 界面 


二 -在 图 3 中 ,我 们 可 以 根据 推荐 需求 实现 推荐 ,其 过 
程 如 下 :用 户 先 选择 两 个 不 同 研究 领域 ,共有 “图 书 
情 拱 “计算 机 “新 闻 与 传媒 “高 等 教育 “生物 学 "5 
个 莒 科 领域 ;@ 随 后 ,用 户 可 以 选择 级 联 的 “研究 方 
向 号 本 推荐 模型 中 的 “研究 方向 "主要 来 自 于 371 位 


跨 学 科 用 户 填写 的 二 级 学 科 方 向 ;3) 继 用 户 选 择 “ 研 究 
方向 "之 后 ,进一步 可 以 选择 级 联 的 “研究 知识 点 ” ,其 
中 “研究 知识 点 "来自 于 371 位 用 户 的 博文 特征 ;@@ 最 
后 ,点 击 “ 推 荐 ”查看 推荐 结果 ,其 界面 如 图 4 所 示 : 


HA D 姓名 研究 领域 研究 方向 
34250 UE 管理 综合 -> 管理 科学 与 工程 “知识 发 现 ”:0.017828 
36782 章 成 志 管理 综合 -> 图 书馆 、 情 报 与 文献 学 -> 情报 学 “知识 发 现 ":0.000737118“ 句 法 分 
析 ":0.00167824 
711035 ES 。 ”信息 科学 -> 计算 机 科学 -> 自然 语言 理解 与 机 器 翻译 “知识 发 现 ":0.00323566 
39714 E 信息 科学 -> 计算 机 科学 -> 自然 语言 理解 与 机 器 翻译 “句法 分 析 ":0.00124909 
362400 李 维 信息 科学 “ 旬 法 分 析 ”:0.00111121 
280034 WRH 管理 综合 -> 图 书馆 、 情 报 与 文献 学 -> 情报 学 “知识 发 现 ”:0.0010635 
5573 刘 炮 。 ”信息 科学 -> 计算 机 科学 -> 自然 语言 理解 与 机器 翻译 
460603 $k ”信息 科学 -> 计算 机 科学 -> 自然 语言 理解 与 机 器 翻译 
652078 ÆRA 信息 科学 -> 计算 机 科学 -> 计算 机 应 用 技术 “知识 发 现 ":0.0013404 
39723 刘 桂 锋 管理 综合 -> 图 书馆 、 情 报 与 文献 学 -> 情报 学 


220689 苏 学 


管理 综合 -> 图 书馆 、 情 报 与 文献 学 -> 情报 学 


E]4 跨 学 科 用 户 推荐 结果 


4.2 跨 学 科 用 户 推荐 模型 结果 分 析 

为 了 验证 推荐 质量 ,我们 采用 了 人 工 打分 方法 来 
测评 。 从 “图 书 与 情报 ”领域 找到 了 10 位 博士 生 与 硕 
士 生 ,从 “计算 机 ”领域 与 “通信 ”领域 找到 了 18 位 硕 


士 生 对 推荐 结果 进行 质量 评估 ,其 测评 过 程 如 下 :WD 首 
先 测 评 用 户 根 据 自 身 推 荐 需要 选择 感 兴 趣 的 学 科 领 
域 . 学 科 方 向 和 学 科 知 识 , 然 后 点 击 “ 推 荐 ”按钮 实现 
推荐 ;@ 在 获得 到 推荐 之 后 ,测评 用 户 对 推荐 的 10 个 
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跨 学 科 用 户 逐 一 评分 ,依据 的 评分 准则 是 1 -5 分 ( 越 
高 代表 该 用 户 与 推荐 需求 越 匹配 ) 。 

在 实验 人 员 进 行 评分 过 程 中 ,我 们 要 求实 验 人 员 
必须 逐一 单 击 “ 推 荐 应 用 ”中 “用 户 ID” (具有 超 链 
接 ) ,去 查看 用 户 的 详细 信息 。 同 时 ,我 们 要 求 测评 人 


员 逐 一 记录 推荐 需求 与 推荐 用 户 。 一 个 测评 人 员 至 少 
选择 一 组 (不 超过 两 组 ) 推荐 需求 ,然后 对 推荐 结果 进 
行 测评 ,最终 得 到 35 份 推荐 需求 及 其 测评 结果 ,推荐 
需求 如 表 4 所 示 : 


表 4 测评 人 员 的 推荐 需求 统计 


学 科 领 域 组 合 频次 学 科 方 向 组 合 
(图 书 情报 ,计算 机 ) 8 (文献 学 ,自然 语言 理解 与 机 器 学 习 ) (情报 学 , 自然 语言 理解 与 机 器 学 习 ) (情报 学 ,自然 语言 理解 与 机 器 学 习 ) 
(图 书 情报 文献 其 他 ,计算 机 体系 结构 ) (计算 机 体系 结构 ,情报 学 ) (信息 安全 ,情报 学 ) (计算 机 体系 结构 ,情报 
学 ) (情报 学 ,计算 机 体系 结构 ) 
(新 闻 与 传媒 ,高 等 教育 ) 6 (新 闻 事 业经 营 管理 ,教育 心理 学 ) (传播 学 ,教育 心理 学 ) (教育 心理 学 ,新 闻 史 ) (职业 技术 教育 学 ,新 闻 史 )( 教 
学 论 , 新 闻 事业 教育 管理 ) (新 闻 业 务 ,教学 论 ) 
(生物 学 ,新 闻 与 传媒 ) 5 (人 类 遗传 学 ,传播 学 ) (遗传 学 研究 新 技术 与 方法 ,新 闻 史 ) (新 闻 史 ,基因 组 学 ) (基因 组 学 ,新 闻 业 务 ) (微生物 
遗传 学 ,传播 学 ) 
(生物 学 ,计算 机 ) 4 (生物 信息 学 ,自然 语言 理解 与 机 器 学 习 ) (生物 信息 学 ,计算 机 应 用 技术 ) (计算 机 应 用 技术 ,基因 组 学 ) (计算 机 


软件 ,人 类 遗传 学 ) 


青 报 ,新 闻 与 传媒 ) 4 


LL 
Ex 


(文献 学 ,传播 学 ) (传播 学 ,情报 学 ) ( 


到 书 情报 文献 学 其 他 ,新 闻 事业 经 营 管理 ) (情报 学 ,新 闻 事业 经 营 管理 ) 


(教育 心理 学 ,人 类 遗传 学 ) (基因 组 学 ,教育 技术 学 ) (微生物 遗传 学 ,教育 管理 学 ) 


书 情报 ,高 等 教育 ) 2 


(计算 机 软件 ,教育 信心 理学 ) (信息 安全 ,教学 论 ) (计算 机 网 络 ,教育 技术 学 ) 
(情报 学 ,教育 心理 学 ) ( 图书 情报 文献 其 他 ,教学 论 ) 


Oaks ,可 以 看 出 :@ 〇 测评 中 (图 书 情报 ,计算 


5 结论 与 展望 


NDS 推荐 需求 最 多 ,这 可 能 是 因为 测评 人 员 主要 来 自 
也 ?图书 情报 "领域 与 “计算 机 "领域 ;加 通过 学 科 方向 
纺 济 统计 ,可 以 看 出 “情报 学 "教育 心理 学 "这 些 学 科 
OR OS FERE AR. 

一 随后 ,我 们 进一步 统计 了 测评 人 员 对 推荐 结果 的 
主 谷 .在 本 次 35 份 推荐 需求 中 ,得 到 了 112 位 推荐 用 
户 本 评分 , 备 个 分 和 的 统计 分 布 结果 如 图 5 HE 
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40 30 


AME 
5 推荐 的 跨 学 科 用 户 得 分 


通过 图 5 可 以 看 出 ,得 到 3 分 与 4 分 的 推荐 用 户 
数 占 据 到 了 整个 推荐 用 户 数 的 62% , 即 大 部 分 推荐 的 
跨 学 科 用 户 得 分 都 在 4 分 和 3 分 (实际 上 ,平均 得 分 为 
3.14 分 ) ,这 意味 着 本 文 推 荐 模型 具有 一 定 程度 的 推 
荐 准确 度 。 


为 了 有 效 融 合 “ 媒 体 ”与 “社交 ”进行 学 术 社 交 媒 
体 上 跨 学 科 用 户 推 荐 ,我 们 基于 前 期 研究 结果 设计 并 
实现 了 一 个 路 学 科 用 户 推荐 模型 。 该 模型 采用 VSM 
来 表示 跨 学 科 用 户 ,借用 欧式 距离 来 计算 相似 度 ,并 基 
于 推荐 指数 (结合 领域 专业 度 . 跨 学 科 距 离 .学 者 Pag- 
eRank 值 ) 给 出 推荐 用 户 列 表 。 该 模型 以 科学 网 上 “图 
书 情报 “计算 机 ”新 闻 与 传媒 ”高 等 教育 “生物 
学 ”5 个 领域 的 跨 学 科 用 户 为 实验 ,进行 了 跨 学 科 用 户 
推荐 。 为 了 考核 推荐 质量 ,本文 邀请 了 28 位 研究 生 参 
与 了 质量 测评 ,同时 通过 分 析 28 位 测试 人 员 的 35 个 
推荐 需求 ,得 到 112 位 推荐 用 户 的 平均 得 分 为 3. 15 ,这 
表明 该 模型 具有 一 定 程度 的 推荐 准确 度 。 

本 文 仅仅 围绕 科学 网 上 “图 书 情 报 ”“ 计算 机 ”新 
闻 与 传媒 “高 等 教育 “生物 学 "5 个 领域 内 的 跨 学 科 
用 户 进行 了 推荐 ,未 来 可 以 扩展 至 更 多 领域 .更 多 跨 学 
科 用 户 的 推荐 。 
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作者 贡献 说 明 : 章 成 志 : 论 文 修订 及 实验 结果 检验 设计 。 
吴 小 兰 :论文 构思 、 起 草 及 实验 设计 ; 


Research on Interdisciplinary User Recommendation Model in Academic Social 
Media Combining Content and Relations 
Wu Xiaolan' Zhang Chengzhi 
' Department of Internet and New Media, School of Journalism and Communication , 
Nanjing Normal University, Nanjing 210046 
* Department of Information Management, School of Economics & Management, 
Nanjing University of Science and Technology , Nanjing 210094 
Abstract; | Purpose/significance | With the rapid development of academic social media, when users do inter- 
disciplinary research or seek interdisciplinary cooperation, many scientific research cooperation starts from the ac- 
quaintance or attention in social media, so it is very meaningful to research on interdisciplinary user recommendation 
^in academic social media. There are two main types of data in social media; media (represents content) and social 
CGrepresents relationship). Therefore, this paper recommended interdisciplinary users integrating content and rela- 
"tons. | Method/process| After user modeling based on Vector Space Model, this paper calculated user specializa- 
(Bion with user content information, measured user's interdisciplinary distance based on relational data, then gave 
Getommendation results combined with PageRank value of user relationship network. | Result/conclusion | Taking 
"ilie science blog as an example, an interdisciplinary user recommendation model in five fields of “ Library and Infor- 
tion" , " Computer" , " News and Media" , “ Higher Education" and "Biology" been implemented , which has been 
Cfe&ted by artificial experiments, and showed that the recommendation results can meet the recommendation require- 
nts to some extent. 


** Keywords: interdisciplinary users recommendation model  interdisciplinary distance academic social networ- 
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《图 书 情 报 工 作 》 关 于 进一步 加 强 对 学 术 不 端 惩戒 的 公告 


K 


为 了 进一步 推进 学 术 道德 建设 ,抵制 学 术 不 端 ,建立 公平 公正、 公开 的 学 术 交 流 生态 环境 ,《 图 书 情报 工作 》 编 
部 针对 学 术 不 端 屡 禁 不 止 等 问题 ,将 进一步 加 强 对 学 术 不 端的 惩戒 力度 ,对 一 稿 两 投 ( 多 投 ) 者 (尤其 是 第 一 作者 
和 通讯 作者 ) 列 人 黑 名 单 ,5 年 内 不 接受 其 投稿 ; 若 已 刊 发 论文 存在 一 稿 两 发 (多 发 ) DR AA .造假 等 各 种 学 术 
不 端 ,将 采取 撤 稿 .在 期 刊 及 网 络 平台 公布 , 列 人 黑 名 单 终身 不 接受 其 投稿 等 多 种 处 理 措施 《图 书 情报 工作 》 愿 
与 学 术 界 、 期 刊 界 同仁 一 起 坚决 抵制 学 术 不 端 ,推动 图 书馆 学 情报 学 及 相关 学 科 的 研究 健康 发 展 。 
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